Introducción

Descripción

¿Qué datos son?

La base posee datos sobre diferentes vinos y sus reseñas. El detalle de los datos se transcribe del diccionario:

Variable Clase Descripción
pais caracter País de origen
nombre caracter Nombre del vino
puntos entero Puntos con que fue calificado (1 a 100)
precio entero Precio de la botella (en dólares)
provincia caracter Lugar de origen
zona_1 caracter Información adicional sobre zona de origen
zona_2 caracter Más información adicional
variedad caracter Variedad (ie, Pinot Noir)
vina caracter Nombre de la viña
titulo_resena caracter Título de la reseña
Fuente: 'Datos de miércoles', proyecto semanal de datos organizado por la comunidad de R (https://github.com/cienciadedatos/datos-de-miercoles/tree/master/datos/2019/2019-06-12)

Origen

¿De dónde provienen?

La fuente de los datos es la revista Wine Enthusiast, extraidos por zackthoutt y alojados en Kaggle, de donde fueron tomados y luego traducidos.

¿Quién los tomó?

Imagen


Fecha

¿En qué período se tomaron?

El dataset en español es de 2019-06-12 (dato obtenido de la url de origen del dataset).

El original en inglés de Keggle fue actualizado por última vez hace 5 años (2018), pero no se indica la fecha exacta de procedencia de los datos.


Análisis

Exploración de los datos

Muestreo

Primero se cargan los datos:

vinos  <-  read_csv('datos/vinos.csv', show_col_types = FALSE)

Luego se presenta una muestra:

Reseñas de Vinos
muestra de 4 registros
pais nombre puntos precio provincia region_1 region_2 variedad vina titulo_resena
Estados Unidos Derby 91 50 Washington Walla Walla Valley (WA) Columbia Valley Cabernet Sauvignon Spring Valley Vineyard Spring Valley Vineyard 2014 Derby Cabernet Sauvignon (Walla Walla Valley (WA))
Estados Unidos NA 85 25 California Napa Valley Napa Cabernet Sauvignon Ca' Momi Ca' Momi 2010 Cabernet Sauvignon (Napa Valley)
Francia Exception 93 100 Loire Valley Sancerre NA Sauvignon Blanc Pascal Jolivet Pascal Jolivet 2010 Exception (Sancerre)
Francia Réserve 89 14 Alsace Alsace NA Riesling Lucien Albrecht Lucien Albrecht 2014 Réserve Riesling (Alsace)
Source: The World Almanac and Book of Facts, 1975, page 406.

Se almacenan las dimensiones de la base en variables:

observaciones <- nrow(vinos)
variables <- ncol(vinos)

El dataset tiene 129971 observaciones y 10 variables.


Variables a analizar

Se consideran las variables puntos y precio para el análisis, ya que son las únicas numéricas, por lo que permiten mayores análisis que el resto de las variables del dataset, que son categóricas.


Tendencia Central

¿Cuál es su valor medio y desvío estándar?

Puntos
Media Desvío Estándar
88.44714 3.03973

Por la media y el desvío, se puede estimar, asumiendo que las calificaciones tienen distribución normal, que el 68% de la muestra se encuentra entre 85 y 91 puntos.

Media Mediana Moda
88.44714 88 88

La similitud entre media, mediana y moda permite suponer una distribución, si no normal, al menos simétrica.

Precio
Media Desvío Estándar
35.36339 41.02222

Por la media y el desvío, se puede suponer que la distribución no es normal.

Media Mediana Moda
35.36339 25 20

La diferencia entre moda, mediana y media, confirma esto, permitiendo estimar una distribución asimétrica hacia la derecha.


Rango

¿Cuál es su rango (valor máximo y valor mínimo)?

Puntos
Mínimo Máximo
80 100

Puede observarse que los puntos no bajan de 80, por lo que la calificación oscila en un rango de solo 20 puntos.

Precio
Mínimo Máximo
4 3300

Se confirma que los precios altos tienen gran dispersión y se alejan mucho de la media, lo que ratifica una asimetría hacia la derecha.


Anomalías

¿Hay alguna anomalía que sugiera que hay datos incorrectos?

No hay evidencias de que existan anomalías en los datos, solo algunos valores llamativos, como la diferencia entre la media de precios y los precios máximos, ya que, aunque el máximo es US$3300, solo existen 1177 (de un total de 129971) que superen los US$158 (promedio de precio + 3 desvíos estándar).

También llamó la atención la cantidad de cepas o variedades de vino (707), pero únicamente porque superó ampliamente el número esperado.

La dispersión de precios puede observarse mejor mediante un gráfico:

Un grafico

(los precios mayores a 158 fueron excluidos)


Tamaño

¿Cuántas observaciones hay por cada grupo? ¿Cuántos valores faltantes? ¿Hay diferencias?

Se contabiliza el porcentaje de valores N/A (vacíos), para cada una de las variables:

prop_no_encontrados <- round(colSums(is.na(vinos))/nrow(vinos),4)*100
show(prop_no_encontrados) |> 
  kable() |>
  kable_styling(full_width = FALSE)
##          pais        nombre        puntos        precio     provincia 
##          0.05         28.83          0.00          6.92          0.05 
##      region_1      region_2      variedad          vina titulo_resena 
##         16.35         61.14          0.00          0.00          0.00

Pueden encontrarse bastantes valores faltantes, pero únicamente en las columnas de nombre (28.83%), region_1 (16.35%) y region_2 (16.35%).


Hipótesis

Se presentan 3 hipótesis:

  1. Podría existir una diferencia notable entre el promedio de precios de los vinos según el país.
  2. Habría una incremento en el precio promedio del vino conforme su puntaje.
  3. Existirían variedades que podrían tener un precio promedio significativamente mayor, pero no así su puntaje.

Precio x Pais

Podría existir una diferencia notable entre el promedio de precios de los vinos según el país.

Para analizar esto, primero, se realiza un gráfico para ver los promedios de precio x país:

Se ve una gran dispersión, con precios que van desde menos de US$10 (Ucrania), hasta más de US$85 (Suiza).

Para verificar que estos promedios sean estadísticamente significativos, se analiza cuantas reseñas hay de cada pais:

País Reseñas
China 1
Egipto 1
Eslovaquia 1
Armenia 2
Bosnia y Herzegovina 2
Luxemburgo 6
Suiza 7
India 9
Chipre 11
Macedonia 12

Destacan varios paises casi sin reseñas. Gráficamente:

Al existir paises con tan pocas reseñas, conviene filtrarlos o agruparlos:

Otros = paises con pocas reseñas

(<0,1% del tamaño de la muestra)

Conclusiones: Se constata una diferencia significativa entre los precios promedio según el pais de origen del vino, ya sea contabilizando todos o excluyendo los menos representativos.

Respecto de la cantidad de reseñas, no es posible establecer si es una limitación de la muestra, con mayor acceso o interés en vinos locales (las reseñas de EEUU casi triplican a las del segundo, Francia), si existen menos reseñas por tener menor producción de vino, u otros motivos.

Tampoco es posible determinar los motivos de la variación de precio. Puede suponerse que influya la reputación vitivinícola, el tamaño de las economías (países con economías desarrolladas parecen ocupar los 1ros puestos), u otras causas.


Precio vs Puntaje

Habría una incremento en el precio promedio del vino conforme su puntaje.

Primeramente, se elabora un gráfico de dispersión de la relación puntaje y precio, eliminando vinos de precios muy altos (> 1000), ya que limitan la utilidad el gráfico:

Este gráfico brinda poca información. Parecería que existen vinos de precio bajo en casi todos los puntajes, y el precio mínimo parece elevarse ligeramente a partir del puntaje 95.

Si cambiamos la escala:

Una escala logarítmica permite apreciar mucho mejor la relación existente entre precio y puntaje.

Vamos a comprobar el precio promedio para cada puntaje:

Con esto se aprecia que el precio promedio de los vino se incrementa, pero el crecimiento sigue una tendencia más exponencial que lineal.

También podemos observar como se distribuyen los puntajes:

Puntos Precio Promedio Reseñas
80 16.37215 395
81 17.18235 680
82 18.87077 1772
83 18.23735 2886
84 19.31021 6099
85 19.94956 8902
86 22.13376 11745
87 24.90188 15767
88 28.68752 16014
89 32.16964 11324
90 36.90662 14361
91 43.22425 10564
92 51.03776 8871
93 63.11222 5935
94 81.43694 3449
95 109.23542 1406
96 159.29253 482
97 207.17391 207
98 245.49275 69
99 284.21429 28
100 485.94737 19

Se observa que los puntajes parecerían tene una distribución semejante a la normal.

Por último, para relacionar con la hipótesis 1, comparamos puntaje promedio conforme paises:

Se ve, que al contrario del precio promedio, el puntaje promedio no parecería tiene mucha variabilidad.

Conclusiones: Entendemos que existe una correlación entre el puntaje y el precio, aunque desconocemos si esto puede deberse a un sesgo de quien evalúa (que podría tender a asignar puntajes altos a vinos caros) o a una efectiva correlación entre calidad y precio, ya que hay muchos vinos de bajo precio con alto puntaje.


Precio/Puntaje x Variedad

Existirían variedades que podrían tener un precio promedio significativamente mayor, pero no así su puntaje.

Variedad Puntaje Promedio Precio Promedio Reseñas
Aidani 82 27 1
Albanello 86 20 1
Athiri 83 18 1
Babosa Negro 92 45 1
Barbera-Nebbiolo 87 30 1
Biancale 85 18 1
Biancolella 85 26 1
Biancu Gentile 89 NaN 1
Blatina 88 12 1
Blauburger 87 17 1

Por la cantidad de variedades encontradas (707), y la escasa cantidad de reseñas de muchas, se agrupan en “Otras” las variedades sin una cantidad significativa de reseñas.

Para este gráfico, se opusieron puntaje a la izquierda (escala de 80 a 100) y precio a la derecha.

Conclusiones: Se estima que el gráfico da cuenta de que existe una diferencia del precio promedio de las variedades más reseñadas, pero que este precio no correlaciona (al menos a simple vista) con el puntaje promedio. Lo anterior podría deberse a varias causas. Una hipótesis es que las variedades o cepas podrían tener un precio promedio distinto en base a los costos de su producción, la dificultad específica de su cultivo, tiempo de procesamiento, o su exclusividad, entre otros.


## https://inbo.github.io/git-course/course_rstudio.html
## git push -u origin pretty
## https://bookdown.org/yihui/rmarkdown/html-document.html#floating_toc
## https://aberdeenstudygroup.github.io/studyGroup/lessons/SG-T1-GitHubVersionControl/VersionControl/
## https://buddy.works/blog/5-types-of-git-workflows
## https://bookdown.org/yihui/rmarkdown-cookbook/fold-show.html
## https://www.garrickadenbuie.com/blog/pandoc-syntax-highlighting-examples/
## https://github.com/jrnold/ggthemes
## https://monashdatafluency.github.io/r-rep-res/yaml-header.html
## https://cran.r-project.org/web/packages/ymlthis/vignettes/yaml-fieldguide.html